Adaptation de la matrice de covariance pour l’apprentissage par renforcement direct

نویسندگان
چکیده

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct

Résumé : La résolution de problèmes à états et actions continus par l’optimisation de politiques paramétriques est un sujet d’intérêt récent en apprentissage par renforcement. L’algorithme PI est un exemple de cette approche, qui bénéficie de fondements mathématiques solides tirés de la commande stochastique optimale et des outils de la théorie de l’estimation statistique. Dans cet article, nou...

متن کامل

Apprentissage de la structure des processus de décision markoviens factorisés pour l’apprentissage par renforcement

Des algorithmes de planification récents issus de la théorie de la décision sont capables de trouver des politiques optimales ou quasi-optimales sur des problèmes de grande taille en utilisant le formalisme des processus de décision markoviens factorisés (FMDPs). Cependant, ces algorithmes ont besoin d’une connaissance a priori de la structure des problèmes qu’ils résolvent. Dans cette contribu...

متن کامل

Apprentissage par renforcement pour la conception de systèmes multi-agents réactifs

A new reinforcement learning (RL) methodology for the design of reactive multi-agent systems is presented. Although dealing with realistic situated agents with local perception does not belong to the framework where convergence of RL algorithm is guaranted, in our method each agent learns individually its local behavior. The progressive aspect of learning, which pits the agents against more and...

متن کامل

Apprentissage par Renforcement Inverse pour la Simulation d’Utilisateurs dans les Systèmes de Dialogue

Résumé : Les systèmes de dialogue sont des interfaces homme-machine qui utilisent le language naturel comme medium d’interaction. La simulation d’utilisateurs a pour objectif de simuler le comportement d’un utilisateur humain afin de générer artificiellement des dialogues. Cette étape est souvent essentielle dans la mesure où collecter et annoter des corpus de dialogues est un processus coûteux...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: Revue d'intelligence artificielle

سال: 2013

ISSN: 0992-499X

DOI: 10.3166/ria.27.243-263